EvoClass
AI012

สำรวจอย่างละเอียดเกี่ยวกับโมเดลภาษาขนาดใหญ่

กรณีศึกษาโมเดลภาษาขนาดใหญ่ที่นิยมและกลยุทธ์การใช้งาน

บทเรียน
บทที่ 2
ผู้สอน
ผู้ช่วยสอนอัจฉริยะ
วันที่
2026-03-10
เป้าหมายการเรียนรู้
  • วิเคราะห์ความแตกต่างทางโครงสร้างระหว่างสถาปัตยกรรมแบบแค่เข้ารหัส (BERT) แบบแค่ถอดรหัส (GPT) และแบบเข้ารหัส-ถอดรหัส (T5)
  • อธิบายกระบวนการฝึกอบรมสามขั้นตอน: การฝึกเบื้องต้น (โมเดลพื้นฐาน), การปรับแต่งคำสั่ง (SFT), และการประสานงาน (RLHF/PPO)
  • เปรียบเทียบประสิทธิภาพ กฎการขยายตัว และนวัตกรรมด้านสถาปัตยกรรมของโมเดลภาษาขนาดใหญ่ที่นิยม เช่น GPT, Llama, Qwen และ DeepSeek